Existing techniques for training language models can be misaligned with the truth: if we train models with imitation learning, they may reproduce errors that humans make; if we train them to generate text that humans rate highly, they may output errors that human evaluators can't detect. We propose circumventing this issue by directly finding latent knowledge inside the internal activations of a language model in a purely unsupervised way. Specifically, we introduce a method for accurately answering yes-no questions given only unlabeled model activations. It works by finding a direction in activation space that satisfies logical consistency properties, such as that a statement and its negation have opposite truth values. We show that despite using no supervision and no model outputs, our method can recover diverse knowledge represented in large language models: across 6 models and 10 question-answering datasets, it outperforms zero-shot accuracy by 4\% on average. We also find that it cuts prompt sensitivity in half and continues to maintain high accuracy even when models are prompted to generate incorrect answers. Our results provide an initial step toward discovering what language models know, distinct from what they say, even when we don't have access to explicit ground truth labels.
translated by 谷歌翻译
虽然编程是现代社会中最广泛适用的技能之一,但现代机器学习模型仍然无法对基本问题的解决方案。尽管重要的是,对评估代码生成令人惊讶的是,很少有效,并且难以准确地评估代码生成性能。为了满足这一挑战,我们介绍了一个用于代码生成的基准。与在更受限制的设置中的事先工作不同,我们的基准测试衡量模型采取任意自然语言规范的能力,并生成满意的Python代码。类似于公司如何评估候选软件开发人员,然后我们通过检查测试用例的生成代码来评估模型。我们的基准测试包括10,000个问题,从具有简单的单线解决方案来实现实质性算法挑战。我们在GitHub和我们的培训集上微调大型语言模型,我们发现语法错误的普遍性随着模型的提高而导致呈指数级递减。最近的模型如GPT-Neo可以通过大约20%的介绍性问题的测试用例,因此我们发现机器学习模型现在开始学习如何代码。随着自动代码生成的社会意义在未来几年增加,我们的基准可以提供跟踪进步的重要措施。
translated by 谷歌翻译
许多专业域都保留了深度学习,因为大型标记数据集需要昂贵的专家注释器。我们通过介绍合同理解Atticus DataSet(CUAD),法律合同审查的新数据集来解决法律领域内的这个瓶颈。CUAD由来自Atticus项目的数十名法律专家创建,包括超过13,000多个注释。该任务是突出对人类审查很重要的合同的突出部分。我们发现变压器模型具有新的性能,但这种性能受模型设计和培训数据集大小的强烈影响。尽管结果有很有希望的结果,但仍有实质性的改进空间。作为专家注释的唯一大型专业的NLP基准之一,CUAD可以作为更广泛的NLP社区担任具有挑战性的研究基准。
translated by 谷歌翻译
许多智力努力需要解决数学问题,但这种技能仍然超出了计算机的能力。为了测量机器学习模型中的这种能力,我们介绍了数学,这是一个12,500个挑战性竞争数学问题的新数据集。数学中的每个问题都有一个完整的逐步解决方案,可用于教授模型来生成答案派生和解释。为了促进未来的研究和提高数学准确性,我们还提供了一个大型辅助预制数据集,有助于教导模型数学的基本原则。尽管我们能够提高数学准确性,但我们的结果表明,即使有巨大的变压器模型,即使有巨大的变压器模型也是相对较低的。此外,我们发现,如果缩放趋势持续,则无法增加预算和模型参数计数对于实现强大的数学推理,这将是不切实际的。虽然缩放变压器正在自动解决大多数基于文本的任务,但缩放目前没有解决数学。为了在数学问题上进行更多牵引,我们可能需要更广泛的研究界的新算法进步。
translated by 谷歌翻译
Drug targets are the main focus of drug discovery due to their key role in disease pathogenesis. Computational approaches are widely applied to drug development because of the increasing availability of biological molecular datasets. Popular generative approaches can create new drug molecules by learning the given molecule distributions. However, these approaches are mostly not for target-specific drug discovery. We developed an energy-based probabilistic model for computational target-specific drug discovery. Results show that our proposed TagMol can generate molecules with similar binding affinity scores as real molecules. GAT-based models showed faster and better learning relative to GCN baseline models.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列,该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战,这是由于探测器的几何形状,不均匀的散射和冰中光的吸收,并且低于100 GEV的光,每个事件产生的信号光子数量相对较少。为了应对这一挑战,可以将ICECUBE事件表示为点云图形,并将图形神经网络(GNN)作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开,对不同的中微子事件类型进行分类,并重建沉积的能量,方向和相互作用顶点。基于仿真,我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术,包括已知系统不确定性的影响。对于中微子事件分类,与当前的IceCube方法相比,GNN以固定的假阳性速率(FPR)提高了信号效率的18%。另外,GNN在固定信号效率下将FPR的降低超过8(低于半百分比)。对于能源,方向和相互作用顶点的重建,与当前最大似然技术相比,分辨率平均提高了13%-20%。当在GPU上运行时,GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件,这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。
translated by 谷歌翻译
对黑暗时代和系外行星(Farside)进行无线电科学调查的遥远阵列是对Lunar Far Side的拟议任务概念,试图在100正方形的区域内部署和操作128双极化的阵列,偶极天线公里。所得的干涉射电望远镜将提供遥远恒星系统的前所未有的无线电图像,从而可以研究冠状质量弹出和能量颗粒事件的微弱无线电特征,还可以导致在其母星的居住区内检测到磁层周围的磁层。同时,Farside还将在一系列红移(z大约50-100)中以全球21厘米信号的全局信号来测量早期宇宙的“黑暗年龄”。阵列中的每个离散天线节点都通过通信和电源系绳连接到中央集线器(位于降落器)。节点是由Cold =可操作的电子设备驱动的,该电子设备连续监测极宽的频率(200 kHz至40 MHz),该频率超过了基于地球的望远镜的能力,该望远镜的功能由两个数量级。实现这种开创性的能力需要在月球表面上制定强大的部署策略,这对于现有高的TRL技术(演示或正在积极发展)是可行的,并且能够在下一代商业地面上传递到地​​表,例如蓝色Origin的蓝月亮着陆器。本文介绍了一种天线包装,放置和表面部署贸易研究,该研究利用了NASA的Jet Propuls实验室开发的束缚移动机器人的最新进展,该机器人用于部署平坦的,天线隔离的,带有光学通信和电源传输的磁带。功能。
translated by 谷歌翻译
使用量子计算,本文解决了两个科学压迫和日常相关问题,即化学逆转录,这是半导体供应链的药物/材料发现和安全性的重要一步。我们表明,量子长短期内存(QLSTM)是逆转录合成的可行工具。我们使用QLSTM实现了65%的培训准确性,而经典的LSTM可以达到100%。但是,在测试中,我们使用QLSTM实现80%的精度,而经典LSTM仅以70%的精度达到峰值!我们还展示了量子神经网络(QNN)在硬件安全域中的应用,特别是使用一组功率和区域特洛伊木马功能在硬件特洛伊木马(HT)检测中。QNN模型可实现高达97.27%的检测准确性。
translated by 谷歌翻译
利用许多离线机器人数据来源需要努力处理此类数据的异质性。在本文中,我们关注异质性的一个特定方面:从不同控制频率收集的离线数据学习。在整个实验室中,控制器的离散化,传感器的采样率以及对目标任务的需求可能会有所不同,从而导致聚合数据集中的频率混合在一起。我们研究离线增强学习(RL)算法如何在训练过程中使用频率混合的数据。我们观察到,$ Q $价值以不同的离散率以不同的速度传播,从而导致了离线RL的许多学习挑战。我们提出了一个简单而有效的解决方案,该解决方案可以在$ Q $值更新的速率上执行一致性,以稳定学习。通过缩放$ n $ n $ n $步骤的$ n $的价值,并具有离散化的大小,我们有效地平衡了$ q $ - 价值传播,从而导致更稳定的收敛性。在三个模拟的机器人控制问题上,我们从经验上发现,这种简单的方法的平均混合量超过50%。
translated by 谷歌翻译